Masked Language Model

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2025.09.07
조회수
15
버전
v1

Masked Language Model

Masked Language Model(MLM, 마스크된 언어 모델)은 자연어 처리(NLP) 분야에서 대표적인 언어 모델링 기법 중 하나로, 입력 문장의 일부 단어를 임의로 "마스킹"하여, 모델이 해당 위치의 원래 단어를 예측하도록 학습하는 방식이다. 이 기법은 주로 BERT(Bidirectional Encoder Representations from Transformers)와 같은 양방향 트랜스포머 기반 모델의 사전 학습(Pre-training) 단계에서 사용되며, 문장의 양방향 컨텍스트(앞뒤 문장 정보)를 효과적으로 학습할 수 있게 한다.

MLM은 기존의 단방향 언어 모델(예: GPT의 왼쪽에서 오른쪽 예측 방식)과 달리, 주어진 문장 내에서 마스킹된 단어의 전후 문맥을 모두 활용하여 단어를 예측함으로써 보다 풍부한 의미 표현(Semantic Representation)을 가능하게 한다.


동작 원리

Masked Language Model의 학습 과정은 다음과 같은 단계로 이루어진다:

1. 입력 문장의 마스킹

임의의 문장에서 전체 단어의 약 15%를 임의로 선택하여 마스킹 처리한다. 구체적인 마스킹 전략은 다음과 같다:

  • 선택된 단어의 80%[MASK] 토큰으로 대체
  • 10%는 무작위 다른 단어로 대체
  • 나머지 10%는 원래 단어를 그대로 유지

이러한 전략은 모델이 단순히 [MASK] 토큰을 보고 단어를 예측하는 것이 아니라, 실제 문맥을 기반으로 추론하도록 유도하며, 학습 데이터와 추론 데이터의 불일치 문제를 완화한다.

2. 모델의 예측

마스킹된 문장을 트랜스포머 인코더에 입력하고, 모델은 각 위치에서 단어의 확률 분포를 출력한다. 특히, 마스크된 위치에 대해 정답 단어의 확률을 최대화하도록 손실 함수(Loss Function)를 설정하여 학습을 진행한다.

예를 들어, 입력 문장이 다음과 같을 경우:

"나는 오늘 ___에 갔다."

모델은 [MASK] 위치에 "학교", "회사", "병원" 등의 단어 중 가장 적절한 것을 예측해야 한다.

3. 손실 함수

MLM의 학습에는 크로스 엔트로피 손실(Cross-Entropy Loss)이 사용된다. 이는 예측 분포와 실제 정답 분포 간의 차이를 최소화하는 방식으로, 각 마스크된 토큰에 대해 독립적으로 계산된다.

\mathcal{L} = -\sum_{i \in \text{masked positions}} \log P(w_i | \text{context})


BERT와의 관계

Masked Language Model은 BERT 모델의 핵심 사전 학습 방법 중 하나이다. BERT는 다음 두 가지 과제를 동시에 학습한다:

  1. Masked Language Modeling (MLM)
  2. Next Sentence Prediction (NSP)

MLM을 통해 BERT는 단어 단위의 의미를 깊이 이해하고, NSP를 통해 문장 간 관계를 학습함으로써, 질문 응답, 감성 분석, 개체명 인식 등의 다양한 NLP 태스크에 뛰어난 성능을 보인다.


장점과 한계

장점

  • 양방향 컨텍스트 활용: 단어의 앞뒤 문장을 모두 고려하여 더 정확한 의미 표현 가능
  • 다양한 downstream task에 적용 가능: 사전 학습된 모델을 파인튜닝(Fine-tuning)하여 분류, 추출, 생성 등 다양한 작업에 활용
  • 강력한 표현 학습: 대규모 텍스트 데이터에서 의미적, 문법적 규칙을 효과적으로 학습

한계

  • 추론 시 마스킹 사용 불가: 학습 시에는 마스킹을 사용하지만, 실제 추론(예: 텍스트 생성)에서는 [MASK] 토큰이 없으므로 직접 생성 능력이 제한됨
  • 계산 비용: 전체 문장을 인코딩한 후 마스크된 위치만 예측하므로, 비효율적인 계산이 발생할 수 있음
  • [MASK] 토큰 의존성: 모델이 [MASK] 토큰에 과도하게 의존할 수 있어, 실제 응용에서 성능 저하 가능

활용 사례

  • BERT 계열 모델: RoBERTa, ALBERT, ELECTRA 등은 MLM 기반 사전 학습을 사용
  • 다국어 모델: mBERT(Multilingual BERT)는 여러 언어에서 MLM을 통해 공통된 의미 공간 학습
  • 도메인 특화 모델: 의료, 법률 등 특정 분야의 텍스트에 MLM을 적용한 BioBERT, Legal-BERT 등 개발

관련 기술

기술 설명
Causal Language Model GPT 계열에서 사용. 왼쪽에서 오른쪽으로 단어 예측 (단방향)
Denoising Autoencoder 텍스트 일부를 손상시킨 후 복원하는 방식. MLM은 이 범주에 포함
ELECTRA MLM과 유사하지만, "교란된 입력을 구별하는" 방식(GAN 기반)으로 더 효율적인 학습

참고 자료

  • Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  • Liu, Y., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint arXiv:1907.11692.
  • Hugging Face Transformers 문서: https://huggingface.co/docs/transformers

Masked Language Model은 현대 자연어 처리의 핵심 기술로, 언어의 의미를 깊이 이해하는 데 기여하며, 다양한 응용 분야에서 지속적으로 발전하고 있다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?